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摘要 : 


【 目的 】 实 现年 鉴 指标 数据 的 结构 化 存储 ,完成 年 鉴 数据 的 更 新 录入 。[ 应 用 背景 ] 年 鉴 预 处 理 平台 是 将 


年 鉴 数 据 统一 整理 、 审 核 、 上 传 的 C/S 工具 平台 , 采用 VC++ 为 主要 编程 语言 ,为 年 鉴 数 据 库 建设 提供 数据 基础 。 


【方法 ] 双向 模式 匹配 处 理 是 在 WM 模式 算法 基础 上 进行 改进 , 利用 分 词 技 术 对 录入 指标 进行 信息 元 提取 、 采 用 
存储 过 程 实现 模式 集合 的 筛 减 、 信 息 双 向 匹配 保证 匹配 的 准确 高 效 。[ 结果 ] 通过 对 实验 数据 录入 的 匹配 结果 进 
行 分 析 , 发 现 双 向 模式 匹配 有 较 高 指标 匹配 率 和 正确 率 。[ 结论 】 双 向 匹配 算法 能 满足 年 鉴 录入 的 需求 , 提高 了 


年 鉴 数 据 预 处 理工 作 的 效率 。 
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年 鉴 数据 是 一 种 全 面 、 系 统 、 准 确 地 以 记述 上 一 
时 间 段 事物 运动 、 发 展 状况 为 主要 内 容 的 事实 资料 汇 
集 , 包括 综合 性 年 鉴 、 专 门 性 年 鉴 、 统 计 性 年 鉴 、 地 
域 性 年 鉴 ， 对 这 些 年 鉴 数 据 进行 分 析 可 以 帮助 人 们 了 
解 事物 现状 和 研究 发 展 趋势 , 对 于 总 结 、 统 计 和 比较 
事物 起 到 了 参考 作用 , 因此 , 广泛 应 用 于 各 个 研究 领 
域 , 数据 本 身 具 有 很 大 价值 站。 

现今 , 各 种 年 鉴 数 据 并 没有 统一 格式 规范 , 大 多 
以 数据 表格 的 形式 进行 非 结构 化 存储 ， 再 加 上 ,国家 
和 地 域 性 数据 在 存储 格式 上 存在 较 大 差异 , 这些 都 不 
利于 数据 查询 、 处 理 以 及 分 析 。 目 前 ， 国 内 外 并 没有 
公开 可 用 的 年 鉴 数据 录入 平台 , 若是 单 笔 人 力 进 行 数 
据 整 理 和 录入 , 需要 的 时 间 和 人 力 的 成 本 是 相当 大 
的 。 为 了 保障 数据 的 真实 准确 ， 充 分 利用 现 有 年 鉴 资 
源 , 笔者 建立 了 以 海量 年 鉴 数 据 为 处 理 对 象 的 年 鉴 数 
据 预 处 理 平 台 , 利用 计算 机 对 格式 多 样 的 指标 数据 进 


了 中 


行 统一 录入 , 将 非 结构 化 的 年 鉴 数据 批量 存储 到 数据 
库 中 , 形成 结构 化 数据 , 规范 了 操作 流程 ,从 源头 上 
保障 了 数据 质量 , 为 产业 技术 情报 工作 者 提供 了 很 好 
的 数据 分 析 基 础 ， 具 有 重要 的 现实 意义 。 

平台 中 的 自动 匹配 模块 ,可 以 将 不 同年 份 的 表格 
数据 之 间 ， 描述 相同 指标 的 数据 合并 ,进行 归 一 化 存 
储 , 方便 了 指标 数据 的 查询 , 解决 了 数据 的 更 新 间 题 ， 
是 年 鉴 数据 自 动 录入 能 和 否 成 功 实现 的 关键 步骤。 本 文 
对 指标 数据 上 自动 匹配 进行 探索 性 研究 , 根据 指标 数据 
的 特点 , 设计 并 实现 了 指标 数据 双向 匹配 ,为 年 鉴 数 
据 上 自动 录入 工作 提供 了 良好 的 技术 支持 , 提高 了 年 鉴 
数据 预 处 理 的 工作 效率 。 


2 平台 设计 与 算法 分 析 


2.1 平台 的 功能 设计 

年 鉴 数 据 预 处 理 平台 的 处 理 对 象 为 年 鉴 表 格 文 
件 ， 考虑 到 不 同类 型 年 鉴 处 理 过 程 的 相对 独立 性 ， 系 
统 采用 Client/Server 架构 实现 ， 以 应 用 工具 的 形式 提 
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供给 数据 录入 人 员 使 用 。 将 计算 和 数据 合理 地 分 配 在 
客户 机 和 服务 器 两 端 , 充分 发 挥 客户 端 PC 的 处 理 能 
力 ， 有 效 地 降低 网 络 通信 和 量 和 服务 器 运算 量 中 。 

为 了 实现 年 鉴 数 据 归 一 化 存储 ， 系 统 需 要 实现 指 
标 体 系 自动 构建 、 年 鉴 文 档 数 据 自 动 识别 、 年 鉴 数 据 
匹配 更 新 录入 、 数 据 审核 及 数据 上 传 模块 ， 如 图 1 所 
示 。 本 文 将 重点 阐述 匹配 更 新 模块 的 实现 。 


图 1 系统 模块 设计 


2.2 ”模式 匹配 的 研究 现状 

年 鉴 数 据 的 匹配 更 新 模块 ,是 整个 系统 构建 的 核 
心 和 难点 所 在 ， 其 算法 的 优 劣 直接 影响 了 数据 的 可 持 
续 性 及 录入 工作 的 效率 。 多 年 指标 数据 往往 存放 于 不 


同 的 指标 表格 文件 中 , 在 进行 最 新 年 份 的 指标 数据 录 
入 的 时 候 , 需要 通过 描述 指标 的 中 文字 符 串 的 比 对 ， 
找到 其 对 应 原始 指标 , 从 而 进行 最 新 年 份 的 数据 更 
新 。 如 何 能 准确 高 效 地 实现 中 文 指标 字符 的 匹配 成 为 
问题 关键 。 

中 文字 符 串 的 匹配 ,又 被 称 为 字符 串 模 式 匹 配 ， 
已 有 40 多 年 的 发 展 历史 , 是 文本 处 理 领域 非常 重要 的 
一 个 研究 课题 。 当 前 , 由 于 网 络 信息 的 迅速 增长 ,模式 
匹配 技术 已 经 广泛 应 用 于 各 种 领域 , 如 过 滤 防 火 墙 、 
网 络 搜索 引擎 、 入 侵 检测 系统 、 生 物 医 学 中 等 , 并 在 
多 数 操作 系统 和 应 用 软件 中 也 得 到 了 实际 应 用 。 

BF(Brute Force) 算 法 是 最 早出 现 的 一 种 字符 串 模 
式 匹 配 算 法 , 是 最 基本 最 简单 的 匹配 算法 ， 又 被 称 为 
蛮 力 算法 。1977 年 出 现 的 KMP(Knuth-Morris-Pratt) 算 
法 , 是 第 一 个 时 间 复 杂 度 达到 Om) 的 算法 趾 。 男 外 一 
个 著名 的 算法 是 BM(Boyer-Moore) 算 法 中， 虽然 最 坏 
情况 的 时 间 复 杂 度 是 O(mn), 但 其 在 绝 大 多 数 场 合 的 
性 能 表现 ， 比 KMP 算法 还 要 出 色 。 在 假定 字符 等 概率 
出 现 并 且 相 互 独立 的 条 件 下 ,该 算法 的 平均 时 间 复 杂 
度 下 界 是 OOlogsmm)， 已 经 在 1979 年 被 Yao 证 明 忠 。 

在 已 有 的 多 模式 匹配 算法 中 , 较为 经 典 的 有 AC 
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算法 、WM 算法 。 近 年 来 , 字符 串 匹 配 的 研究 领域 也 
在 不 断 发 展 , 不 断 涌现 出 新 的 匹配 算法 。 据 不 完全 统 
计 , 2000 年 之 前 公开 发 表 的 有 近 40 种 经 典 算法 , 2000 
年 之 后 陆续 发 表 有 50 多 种 新 算法 钙 。 

针对 字符 串 匹 配 问 题 , 学 术 界 达成 一 个 共识 , 往 
往 思 想 越 简单 的 算法 , 实际 应 用 的 性 能 越 好 。 一 部 分 
学 者 对 于 模式 匹配 的 研究 存在 理论 脱离 实际 的 现象 ， 
算法 的 复杂 度 不 断 提高 , 但 是 实际 应 用 的 效果 却 不 是 
很 理想 , 往往 没有 经 典 的 AC 算法 、WM 算法 更 高 效 四 。 
另 一 方面 ， 随 着 网 络 信息 的 不 断 增长 ， 需要 处 理 的 数 
据 量变 得 越 来 越 大 ,而 人 们 对 匹配 速度 的 要 求 越 来 越 
高 , 这 使 得 研究 者 面临 着 巨大 挑战 诏 。 因 此 , 在 模式 匹 
配 的 研究 过 程 中 , 改进 经 典 算法 的 同时 ， 更 要 着 眼 于 
实际 的 应 用 效果 , 将 理论 与 实际 相 结合 , 研究 出 适合 
大 规模 数据 集 进行 模式 匹配 的 方法 ,同时 还 要 保证 模 
式 匹 配 效率 。 
2.3 WM 算法 原理 

多 模式 算法 中 ， 较 为 经 典 的 有 AC 算法 和 WM 算 
法 ,它们 都 需要 对 模式 集 进 行 预 处 理 。AC 算法 I" 需要 
维护 一 个 状态 机 , 所 以 在 构建 的 时 间 和 空间 复杂 度 上 ， 
要 比 WM 算法 更 消耗 资源 , 而且， 如 果 模 式 集 动态 可 
变 ,AC 算 法 动态 调整 自动 机 的 成 本 要 比 WM 算 法 高 很 
多 。WM 算法 中 利用 跳跃 思想 使 部 分 字符 不 需要 进行 
匹配 , 同时 采用 Hash 散 列 匹配 的 方法 , 提高 了 处 理 速 
度 , 在 实际 应 用 中 取得 了 较 高 的 效率 。 因此, 在 指标 匹 
配 的 处 理 过 程 中 , 本 文采 用 性 能 更 好 的 WM 算法 。 

WM 算法 借鉴 了 BM 单 模式 匹配 算法 中 的 坏 字 符 
跳 转 规则 ， 而 在 多 模式 匹配 问题 中 ,由 于 模式 串 集 合 
较 大 ,用 羡 的 字符 集 也 相应 变 大 ,导致 坏 字 符 出 现 几 
率 变 低 , 滑动 窗口 跳 转 距离 减 小 , 所 以 上 述 规则 的 效 
率 明 显 下 降 。 因此 , WM 算法 提出 字符 块 这 一 概念 ， 以 
几 个 连续 的 字符 作为 一 个 匹配 单位 ， 以 此 增加 滑动 窗 
口 在 每 一 次 尝试 匹配 后 的 滑动 距离 , 字符 块 长 度 B 一 
般 为 2 至 3 字 节 0 六 。 

WM 算法 需要 构建 SHIFT 表 、HASH 表 和 PREFIX 
表 , 主要 运用 哈 希 表 的 思想 提升 性 能 。 其中, SHIFT 表 
记录 字符 集中 所 有 字符 块 在 文本 工 中 出 现时 滑动 窗口 
的 移动 距离 ; HASH 表 记 录 SHIFT 项 为 0 且 后 级 字符 
块 哈 希 值 相同 的 所 有 特征 串 位置 PREFIX 表 则 记录 
寺 征 串 集中 前 级 字符 块 哈 希 值 相 同 的 特征 串 位 置 。 具 
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体 的 匹配 过 程 如 下 1 

(1)p 指向 文本 工 滑动 窗口 后 缀 。 如 果 p> Tau, 退 
出 ; 否则 , 计算 p 指向 的 字符 块 的 hash 值 。 

(2) 查 SHIFT 表 , 取 SHIFT[hash] 值 。 如 果 等 于 0， 
表示 p 指 向 的 字符 块 与 某 个 特征 串 后 缀 字符 块 相同 , 转 
步骤 (3); 不 为 0， 则 执行 p=p+SHIFT[hash], 转 步 又 (1)。 

(3) 查 HASH 表 , HASH[hash] 指 向 可 能 与 文本 T 
当前 滑动 窗口 内 子 串 匹 配 的 所 有 特征 串 。 

(4) 计算 文本 T 当前 滑动 窗口 内 子 串 前 级 字符 块 
的 散 列 值 prefix。 

(5) 对 HASH[hash] 指 向 的 每 个 特征 串 查 PREFIX 
表 ,， 如果 其 PREFIX[hash] 与 prefix 值 相同 , 则 进行 精 
确 匹 配 ， 从 特征 串 第 一 个 字符 进行 完全 匹配 ,报告 结 
果 。 全 部 匹配 过 程 结 束 , 执行 p=p+1， 转 步骤 (1) 。 


3 双向 模式 匹配 的 实现 


3.1 ”指标 匹配 的 设计 

指标 数据 更 新 模块 , 需要 完成 的 历年 数据 的 汇 
总 。 考虑 到 数据 的 严谨 性 ， 匹 配 结果 的 准确 性 是 判断 
更 新 是 否 成 功 的 首要 标准 , 在 此 前 提 下 , 需要 尽 可 能 
提高 处 理 过 程 的 效率 。 而 将 WM 算法 直接 运用 于 指 
标 匹配 中 是 不 可 行 的 ,主要 是 因为 指标 体系 庞大 ， 
WM 预 处 理 时 间 成 本 和 空间 成 本 大 大 增加 ， 匹 配 性 
能 急剧 下 降 。 针对 指标 匹配 对 准确 性 的 要 求 和 指标 集 
合 自身 的 特点 ,本 文 从 以 下 方面 对 指标 集合 进行 处 
理 , 使 WM 算 法 适用 于 指标 的 匹配 ， 提 高 指标 匹配 的 
性 能 : 

(1) 预先 对 指标 模式 集合 进行 一 定 程 度 的 筛 减 ， 
剔除 掉 大 量 无 关 指标 集合 。 

(2) 对 指标 文本 进行 文本 清洗 ,去 除 无 关 字 符 ， 
提取 表述 指标 的 信息 元 集合 来 进行 后 续 匹 配 。 

(3) 在 匹配 环节 加 入 反 向 匹配 ,进一步 提高 匹配 
的 准确 性 及 效率 。 

鉴于 以 上 分 析 , 本文 双向 模式 匹配 的 流程 设计 如 
图 2 所 示 。 
3.2 ”指标 文本 清洗 及 信息 元 的 提取 

双向 匹配 处 理 的 第 一 步 ， 就 是 指标 文本 清洗 及 信 
息 元 的 提取 ， 其 结果 直接 影响 后 续 中 文字 符 匹 配 的 准 
确 程度 。 年 鉴 数据 是 以 Excel 文本 文件 进行 存储 的 , 需 
要 对 表格 中 表述 指标 的 关键 信息 进行 提取 。 年 鉴 数据 
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图 2 双向 模式 匹配 处 理 的 流程 


表 名 、 行 列 标题 、 单 位 这 些 指标 名 称 关键 字段 中 , 常 
常会 出 现 中 文字 符 的 错误 ， 而 这 些 错 误 符号 或 无 用 信 
息 会 直接 影响 指标 的 匹配 。 例如 : 固定 资产 投资 2014， 
这 里 2014 属 于 年 份 信息 , 而 不 是 指标 名 称 , 需要 去 除 ; 
又 如 : 固定 资产 投资 (, 其 中 “C* 则 为 错误 符号 , 也 是 需 
要 去 除 的 部 分 。 因 此 , 在 进行 数据 匹配 之 前 , 对 于 从 
Excel 中 提取 的 字符 , 要 进行 字符 串 的 清洗 , 并 提取 描 
述 指标 的 关键 信息 来 进行 后 续 的 匹配 ， 以 确保 字符 匹 
配 的 准确 性 。 

根据 年 鉴 指标 名 称 的 特点 ,本文 设计 并 实现 了 指 
标 关 键 信息 提取 的 操作 流程 ,如 图 3 所 示 , 包括 中 文 
识别 、 中 文 分 词 、 数 据 清洗 、 有 用 信息 提取 等 步 又。 
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图 3 指标 数据 信息 元 提取 流程 


(1) 中 文 识别 

指标 文件 中 涵盖 大 量 指标 对 应 的 英文 翻译 , 这 属 
于 匹配 无 关 信 息 ,应 予以 去 除 , 因此， 需要 对 中 文 及 
英文 字符 块 进行 区 分 , 提取 中 文字 符 块 以 进行 后 续 操 
作 。 平台 选取 的 中 文 编码 方式 为 Unicode， 其 中 中 文 汉 
字 的 范围 为 4E00 至 9FBF, 可 以 通过 字符 的 ASCII 码 
的 显示 范围 来 确定 是 否 为 中 文 并 进行 中 文 的 识别 。 而 
指标 内 的 专 有 英文 词汇 如 GDP 等 ， 属 于 指标 信息 元 ， 
应 予以 保留 。 


(2) 中 文 分 词 及 错误 符号 的 去 除 

指标 描述 的 中 文字 符 串 内 包含 一 些 无 用 信息 ， 如 
标点 符号 、 助 词 、 连 词 等 。 这 些 无 用 信息 会 干扰 匹配 
结果 , 且 影 响 匹 配 的 效率 。 通 过 对 指标 的 无 用 字符 进 
行 分 析 发 现 , 利用 词性 对 无 关 信息 进行 去 除 ， 能 达到 
较 好 的 效果 。 因 此 , 本 文 利用 分 词 系统 对 中 文 指 标 字 
符 串 进行 分 词 ， 对 分 词 的 结果 进行 分 析 , 根据 词性 去 
掉 无 关 信息 ， 从 而 得 到 表述 指标 的 关键 信息 集合 。 

平台 采用 ICTCLAS 分 词 系统 , 它 可 自 定 义 词 库 ， 
有 和 良好 的 分 词 效果 和 强大 的 数据 处 理 效率 请， 分 析 分 
词 的 结果 , 去除 标点 Ww、 助词 u、 连 词 ce、 介词 p 和 量 
词 q 等 这 些 对 匹配 无 关 的 杂项 。 

(3) 年 份 及 单位 的 提取 

年 份 和 单位 是 描述 指标 数据 的 重要 参数 , 需要 对 
其 进行 提取 。 表 格 中 年 份 信息 的 提取 较为 简单 ， 由 于 
年 份 一 般 为 数字 , 且 通 常 出 现 于 表格 名 称 或 行列 标题 ， 
根据 字符 的 数值 范围 即 可 判别 是 否 为 年 份 信息 。 在 进 
行 单位 提取 的 时 候 , 需要 建立 单位 词 表 库 ,对 年 鉴 表 
格 中 的 单位 信息 进行 识别 , 同时 , 对 于 表格 中 明确 标 
明 单 位 的 单元 格 进行 判别 , 扩充 单位 信息 库 。 

对 于 表格 中 表 名 、 行 标题 、 列 标题 、 单 位 这 些 描 
述 指标 的 关键 信息 , 综合 上 述 步 又 进行 处 理 ， 即 可 去 
除 无 关中 文字 符 杂 项 , 得 到 描述 单个 指标 的 关键 词 集 
合 ， 即 指标 信息 元 集合 ,特别 需要 注意 ,由 于 表 名 对 指 
标的 表述 贡献 明显 弱 于 行列 标题 , 因此 本 文 按 行 标 
题 、 列 标题 、 表 名 的 顺序 进行 指标 名 称 的 提取 , 使 此 
步骤 的 结果 集 按 信息 量 权重 排序 有 利于 提高 指标 的 
匹配 效率 。 其 中 , 指标 年 份 和 单位 的 信息 ， 是 进行 指标 
数据 的 归 一 化 合并 所 必需 的 要 素 。 
3.3 ”匹配 模式 集合 得 油 

指标 体系 是 海量 数据 的 集合 , 对 其 进行 筛 减 ,可 以 
减少 匹配 模式 集合 的 数量 ,去 除 掉 大 量 无 关 指 标 信息 ， 
保障 了 指标 匹配 的 处 理 效率 。 指 标 体 系 存 储 在 MSSQL 
数据 库 中 , 考虑 到 指标 文本 数量 较 大 ， 此 步 又 采用 数据 
库 查 询 的 方式 进行 , 将 指标 的 信息 元 作为 关键 词 ， 对 数 
据 库 进行 SQL 条 件 查询 。 在 进行 关键 字 搜 索 时 常常 使 
用 Like 运算 符 进行 模糊 查询 , 但 是 由 于 Like 子 句 强制 
数据 库 系 统 线性 扫描 文本 字段 ,降低 了 系统 性 能 [1。 为 
了 提高 整个 指标 筛选 过 程 的 效率 , 本文 利 用 数据 库 全 
文 检索 技术 来 实现 数据 的 查询 , 采用 FullText 构造 文本 


全 /人 人 在 甘 日 干 || 
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字符 串 中 的 单词 索引 , 缩短 了 检索 时 间 1。 
由 于 该 过 程 需 要 频繁 操作 数据 库 ， 本 文采 用 存储 
过 程 实现 该 步骤。 将 指标 信息 元 作为 存储 过 程 的 参数 
传人 , 使 大 量 T-SQL 语句 集合 提前 完成 预 编 译 和 优化 ， 
直接 返回 筛选 后 的 数据 集合 ,从 而 提高 执行 速度 。 
具体 的 筛 减 过 程 如 下 : 设 需要 匹配 的 文本 为 A 
对 Al 进行 信息 元 提取 ， 得 到 集合 Alfal， a2，33，34，35 *" 
an}， 通 过 集合 A 在 数据 库 中 进行 条 件 查询 ， 设 定 阔 值 
为 10 000, 将 aa，a，a4， as…an 依 次 加 入 查询 条 件 ， 
写 人 循环 , 若 查 询 不 到 指标 数据 , 则 去 除 无 效 关 键 词 ; 
若 查 询 结果 大 于 阔 值 , 则 继续 循环 ; 若 查询 结果 小 于 
浆 值 ， 则 退出 循环 过 程 ， 筛 选 出 相关 指标 集合 B,， 则 集 
合 B 即 为 所 有 和 Ai 所 在 表格 相关 的 指标 名 称 集合 , 同 
时 , 为 了 避免 后 续 重 复查 询 , 需要 记录 此 次 查询 的 条 
件 集合 C, 并 以 数据 集 的 形式 返回 。 
3.4” 正 向 匹配 处 理 
正 向 匹配 处 理 是 字符 串 匹 配 的 过 程 , 将 指标 信 ， 
元 集合 A fa, az, a3, at as…an } 与 得 减 指标 集合 Bfb,,，b，， 
ba，b4， bs…bm } 进 行 字符 比 对 , 设 定 阔 值 为 100, 查找 出 
符合 条 件 的 最 小 字符 集合 B， 并 进行 反 向 匹配 。 其 主要 
处 理 思 想 与 指标 筛选 过 程 类 似 , 将 al, az, a3, a4, as…an 加 
入 比 对 条 件 集合 C 时 , 若 已 存在 集合 C 内 ， 则 继续 循环 ; 
若 不 在 , 则 加 入 查询 条 件 集合 C, 由 于 信息 元 集合 中 有 
无 效 信息 元 出 现 , 将 条 件 集合 C 与 指标 集合 B 进 行 字 符 
串 匹 配 后 , 洛 无 相关 匹配 指标 返回 , 则 需要 去 除 该 查询 
条 件 , 若 匹配 指标 数量 小 于 阔 值 , 则 直接 进行 反 向 匹配 
处 理 。 匹 配 流程 主要 实现 伪 代 码 如 下 所 示 : 
for (i=0; i< A; i++) { 
char* sFilter= A[i]: 
// 若 查询 条 件 为 空 或 查找 条 件 已 在 查询 集合 内 
if (sFilter IsEmptyOllsFilter in C){ 


continue; 


证 


} 
C.Add(sFilter);。// 加 入 查询 条 件 
// WM 章法 具体 实现 函数 
DRes=FindIndWM (C ,B); 
1f (nRes ==0){ 
// 车 查 不 到 任何 值 ， 则 该 查询 条 件 无 效 
// 去 除 该 查询 条 件 
C.Remove(sFilter); 
continue; 
}else if(nRes>0&& nRes<100){ 
// 在 阅 值 范围 内 


XIANDAI TUSHU QINGBAO JISHU 


// 反 向 匹配 
} 
} 
字符 比 对 采用 WM 算法 实现 , 其 实现 思路 见 2.3 
节 ,， 匹配 过 程 的 伪 代 码 如 下 : 
while(text<textend) { 
hashVal=hashBlock(text);// 计 算 当 前 块 的 哈 希 值 
// 查 找 块 的 坏 字 符 移动 表 (SHIFT) 得 到 下 一 个 匹配 
开始 位 置 
shift_ distance=SHIFT[hashval]; 
// 计 算 当 前 位 置 的 哈 希 值 
if(shift_distance==0) {// 当 前 块 出 现在 某 pat 末 
shift_distance=1; 
p=HASH[hashvall; 
// 得 到 可 能 与 当前 块 匹 配 的 所 有 pat 的 集合 的 开始 位 置 
while(p) 
/检验 子 集中 的 pat 是 否 匹 配 ; 
} 
text+=shift distance; // 选 择 下 一 个 可 能 的 匹配 入 口 
} 


3.5 ” 反 向 匹配 处 理 
由 于 指标 名 称 的 相似 性 ,在 实际 匹配 过 程 中 发 现 
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仅仅 进行 正 向 匹配 不 足以 解决 实际 的 匹配 问题 。 正 向 
匹配 一 般 会 有 多 个 指标 与 A 完全 匹配 ,即便 是 集合 Bi 
中 仅仅 只 有 唯一 指标 文本 与 A 相 匹 配 , 考虑 到 匹配 数 
据 对 应 的 严谨 性 ， 提 高 匹配 准确 性 , 也 要 对 匹配 结 
进行 验证 ,进行 反 向 匹配 。 反 向 匹配 是 在 正 向 匹配 的 
基础 之 上 ,对 匹配 结果 的 进一步 得 选 和 验证 。 它 与 正 
向 匹配 相反 , 是 由 指标 集合 Bl 到 录入 指标 字符 串 A 的 
字符 匹配 过 程 。 

指标 进行 正 向 匹配 的 结果 , 往往 有 一 个 或 者 多 个 
指标 数据 与 需要 匹配 的 指标 相对 应 , 例如 国民 经 济 核 
算 模块 里 面 的 指标 :国际 收 支 平衡 表 - 经 常 项 目 -收益 ， 
可 以 找到 以 下 指标 与 之 相对 应 :国际 收文 平衡 表 - 经 常 
项 目 -收益 、 国 际 收 支 平衡 表 - 经 常 项 目 -职工 报酬 收 
益 、 国 际 收 支 平衡 表 - 经 常 项 目 -投资 收益 等 ,此 时 , 进 
行 反 向 匹配 ,可 以 去 除 掉 错 误 匹 配 项 国际 收文 平衡 表 
-经 常 项 目 -职工 报酬 收益 、 国 际 收 坟 平衡 表 - 经 常 项 目 
-投资 收益 ,如 表 1 所 示 : 


表 1 反 向 匹配 流程 示例 


需要 匹配 指标 正 向 匹配 的 指标 集 未 匹配 字符 结 
国际 收 支 平衡 表 - 经 常 项 目 -收益 无 匹配 
国际 收 支 平衡 表 - 经 常 项目- 收益 国际 收 支 平衡 表 - 经 常 项 目 - 职 工 报酬 收益 职工 报酬 不 匹配 
国际 收 支 平衡 表 - 经 常 项 目 -投资 收益 投资 不 匹配 
实现 的 思路 如 下 :将 正 向 匹配 处 理 得 到 的 数据 集 | 
Bi 进行 信息 元 集合 的 提取 , 并 由 它 向 需要 匹配 的 指标 
名 称 A 进行 字符 匹配 对 应 ， 知 出 现 能 找 出 唯一 与 之 匹 请 选择 Exce 文 件 所 在 目录 : 
配 的 指标 则 匹配 成 功 ; 车 找到 多 个 匹配 指标 , 则 匹配 | 选择 目录 


失败 。 如 表 1 中 , 职工 报酬 和 投资 不 在 需要 匹配 的 指 
标 国际 收文 平衡 表 - 经 常 项 目 -收益 中 , 反 向 匹配 结 
为 不 匹配 ,因此 可 以 找到 唯一 匹配 项 ， 则 匹配 成 功 。 


4 实验 分 析 与 结论 


平台 的 开发 选择 微软 公司 的 Visual C++ 2010, 采 
用 OLE/COM 实现 对 Excel 表 格 的 操作 , 数据库 服务 器 
端 选用 的 是 Microsoft SQL Server 客户 端 同时 支持 
Microsoft SQL Server 和 Access。 

为 了 验证 双向 匹配 算法 的 应 用 效果 , 对 中 国人 口 
和 就 业 统计 年 鉴 2010 的 年 鉴 文件 进行 录 人 匹配 测试 
工作 , 操作 界面 如 图 4 所 示 : 


现代 图 书 情报 技术 


对 化 | 了 消 | 


图 4 平台 录入 匹配 操作 界面 


中 国人 口 和 就 业 统计 年 鉴 2010 共 有 122 个 年 鉴 文 
件 ， 对 所 有 表格 的 指标 数据 进行 匹配 录入 的 操作 ,其 
中 , 成 功 110 个 文件 , 失败 12 个 , 平均 单个 表格 的 处 
理 时间 为 97 秒 。 失 败 12 个 文件 中 , 有 8 个 是 本 身 数 
据 记 录 不 连续 (例如 2008 年 11 月 1 日 至 2009 年 10 月 
31 日 一 个 时 间 段 的 数据 ) 的 特殊 文件 , 数据 本 身价 值 
不 大 , 暂 不 需要 采集 录入 , 还 有 另外 4 个 文件 表格 指 
标 读 取 有 问题 , 经 分 析 该 表格 属于 特殊 表格 , 需要 调 
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整 表 格格 式 之 后 进行 数据 录入 。 

成 功 录入 的 110 个 文件 中 , 含有 指标 共计 4 892 
个 , 匹配 成 功 的 指标 有 4 278 个 ,为 了 验证 匹配 结果 的 
正确 性 , 对 结果 进行 错误 检测 ,根据 指标 数据 的 特点 ， 
设计 并 实现 了 错误 检测 的 程序 , 根据 指标 名 称 的 特点 ， 
将 疑似 错误 匹配 到 的 指标 挑选 出 来 , 如 图 5 所 示 。 通 
过 程序 自动 进行 错误 检测 ,并 进行 人 工 批量 审核 , 发 
现 错误 匹配 到 的 指标 有 678 个 。 错 误 指 标 可 以 通过 平 
合 查 找 关 联 指标 的 功能 ,进行 匹配 结果 更 正 ， 如 图 6 
所 示 。 对 于 已 匹配 的 指标 数据 , 需要 审核 之 后 批量 入 
库 ; 对 于 未 匹配 的 指标 数据 , 平台 设计 并 实现 了 查找 


可 能 关联 的 指标 功能 ， 可 以 进行 半自动 人 工 关联 。 通 
过 以 上 实验 分 析 ， 双向 匹配 算法 的 匹配 率 达 到 
87.45%， 正确 率 达 到 86.14%。 


二 名 志 过 局 
6 人 艰 力图 色 下 加 了 光一 六 国 
舌 柠 拆 分 构建 指 款 暑 查看 指标 科 数据 匹配 。 设置 。 剧 新 查 扩 关联 。 坦 看 已 严 配 棋 洪 恰 测 删除 檬 涡 通过 定 校 并 隋 值 通过 审核 不 通过 审 校 查看 已 市 术 
扣 作 设置 。 未 UE 的 指标 富 入 
写 核 ，| 指 HID 抽 述 行伍 _| 贡生 于 = 三 六 指标 
PWCN00010101001000000000 。 工 重复 区 号 按 城 乡 分 人 口 笋 城 ，。 综合 数据 按 减 乡 分 人 口 数 城 注 比 重 
PWCN00010101001000000000 。 工 分 城 天 比重 
PWCN00010101001000000000 2 1 丧 比 里 
PWCNOOO10101003000000000 多 村 尼 醒 
PWCNOOO10101003000000000 2 1. 9 尼 本 
PWCNOOO10101003000000000 。 工 光村 此 重 
PWCN00010101005000000000 1 重 总 AD 
PWCN00010101005000000000 。 工 总 人 品 
PWCN00010101005000000000 总 A 
PWCN00010125001000000000 。 1 重复 本 总 抚养 比 
PWCN00010125001000000000 总 丘 关 比 
PWCN00010125001000000000 二 癌 比 
PWCN00010125002000000000 1 总 丘 状 比 名 年 括 关 比 
PWCN00010125002000000000 。 工 强 和 六 比 老年 抚养 比 
PWCN00010125002000000000 。 工 总 抚养 比 老年 抚养 比 
PWCN00010125003000000000 。 ] 重复 匹 瑟 总 岳 养 比 少儿 抚养 比 
PWCNOOO10125003000000000 1 作 半 比 :少儿 扩大 比 
PWCNO0010125003000000000 总 岳 美 比 :少儿 抗 美 比 
BS Wm ” wm 元 所 时- 年生 WE 下 理 于 Ee 
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co 参 时 加 Cp 昌 三 要 忆 加 
二 和 拆 分 构建 亲本 看 括 梧 效 过 开本 设置。 记 折 “过 抠 关联 查看 忆 严 本 诬 误 从 刚 吉政 性 计 通过 市 习 并 革 全 通过 市 习 不 通过 市 以 查 委 已 审 以 
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PWCN00010101001000000000 。 工时 和 提 区 号 按 直 分 人 口 数 城 流 比 于 结业 过 起 分 人 局 数 城 六 比 里 


控 城 乡 分 人 口 数 城 法 比 里 半数 后 控 直 分 人 口 数 城 入 比 时 
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接 城 多 分 人 口 娄 :多 村 间 
五 人 全 国人 品格 人 号 本 情况 年 志 : 
i | 
et er 
分 拓 多 就 汪 和 人员 年 未 人才: 乡 村 :比重 怠 丘 关 比 yj 
扫 柜 分 人 中 再 多 村 性 重 SAD 


总 人 吕 :0-14 风 此 
总 人 吕 :0-14 央 北 
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总 人 D:15-64 岁 | 


图 6 可 能 关联 的 指标 列表 
5 结 语 


年 鉴 预 处 理 平台 , 实现 了 指标 数据 的 自动 录入 ， 
使 录入 流程 标准 化 , 避免 了 人 工 录 入 可 能 出 现 的 错误 ， 
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大 大 节省 了 人 力 和 时 间 成 本 ,在 年 鉴 数 据 的 录入 工作 
中 起 到 重要 的 作用 。 而 指标 双向 匹配 处 理 , 作为 年 鉴 
录入 平台 中 的 核心 步骤 之 一 , 达到 了 和 较 高 的 数据 匹配 
准确 率 , 实现 了 预期 目标 ,节省 了 年 鉴 录 入 的 时 间 和 
人 力 成 本 ,保障 了 年 鉴 数据 录入 的 准确 性 和 安全 性 。 
但 是 为 了 达到 较 高 的 匹配 率 , 在 进行 匹配 处 理 时 , 在 
一 定 程 度 上 牺牲 了 算法 处 理 速度 ,在 今后 的 工作 中 ， 
将 进一步 分 析 指 标 自 有 规律 , 研究 实现 提高 双向 匹配 
算法 的 处 理 速度 的 方法 , 加 强 算法 的 实用 性 。 
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Using Bidirectional Pattern Matching Model to Pre-Process Yearbook 
Data 


Shi Liting: Zhang Qian’ Zhong Yongheng: Hu Sisi LiZhenzhen! 
(Wuhan Library Chinese Academy of Sciences, Wuhan 430071, China) 
“(The 9th Designing of China Aerospace Science Industry Corporation, Wuhan 430040, China) 


Abstract: [Objective] We try to store the yearbook records as structured data, which will also be updated regularly. 
[Context] The yearbook data pre-process System is a C/S tool platform for collecting, auditing and uploading data. It 
Was developed with VC++, and generated contents for the yearbook database. [Methods] We first modified the classic 
WM algorithm to build a new bidirectional pattern matching model. With the help of word segmentation technology, the 
new Imodel could extract the metadata of original records. Then, we reduced the number of pattern sets with data storing 
procedure and bidirectional matched the records to ensure the effectiveness and efficiency of the system. [Results] The 
proposed algorithm achieved high level of matching rate and accuracy. [Conclusions] Bidirectional matching algorithm 
can meet the needs of the yearbook data entry, and improve the efficiency of the data preprocessing system. 


Keywords: Bidirectional pattern matching The yearbook data WM algorithm 
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